Amazon Lexの新しい多言語ストリーミング音声認識モデル (ASR-2.0) がリリースされ、認識精度が向上しました
はじめに
Amazon Lexは、新しい多言語ストリーミング音声認識モデル (ASR-2.0) にアップデートされました。
Amazon Lexは、AIチャットボットや音声ボットを構築・運用できるフルマネージドAIサービスです。
Amazon Connectと連携させることで、電話での顧客対応を自動化し、効率化することが可能です。
Amazon Lexが音声をテキスト化する際には、裏でAmazon Transcribeが動作しており、今回その音声認識モデルがアップデートされました。
この新しいモデルは、2つの専門的なグループに基づいて認識精度を向上させています。
- ヨーロッパベースのモデル
- 対応言語:ポルトガル語、カタロニア語、フランス語、イタリア語、ドイツ語、スペイン語
- アジアベースのモデル
- 対応言語:中国語、韓国語、日本語
アップデート情報によると、特に英数字の音声認識が向上しています。
これにより、Amazon Connectと連携したLexのチャットボットでは、発信者の識別や業務の自動化に関する顧客の発話を、より正確に理解できるようになりました。
また、アップデート情報では、具体的な改善点として次の点が挙げられています。
- アカウント番号、確認番号、シリアル番号、商品コードなどの認識精度が向上
- 対応言語の地域バリエーションすべてに適用(例:ヨーロッパのフランス語とカナダのフランス語の両方が改善の恩恵を受ける)
- 非ネイティブスピーカーやさまざまな地域のアクセントに対する認識精度が向上
新モデルの反映方法
これらのモデルは現在、Amazon Lexでサポートされている言語の標準モデルとなっています。既存のボットを再構築(Build)するだけで、新モデルが適用されます。
旧モデルとの精度比較
以前、Amazon ConnectからAmazon Lexを呼び出し、自動ヒアリングで数字の認識精度を確認しました際、その検証では、日本語の数字に関しては精度が高いことが分かりました。
新モデルで試してみたところ、もともと精度が高かったため、個人的には認識精度の向上を実感することはできませんでした。
英字に関しては、以前より認識精度が向上していることを実感できました。
-
発話内容:「OPQRSTUVWXYZ」
- 以前のモデルでの文字起こし結果
「e q r a t u r i w a y a r」 - 今回のモデルでの文字起こし結果
「p. p. 九 r s s. t. u. w. x y. z.」
- 以前のモデルでの文字起こし結果
この入力サンプルは一例であり、すべてのケースで同様の結果が得られるわけではありません。
また、今後のバージョンアップにより改善される可能性があるため、これらの結果は恒久的なものではありません。